高斯流程提供了一个优雅的框架,用于在功能上指定先验和后验分布。但是,它们在计算上也很昂贵,并且受其协方差函数的表达性限制。我们提出了基于扩散模型的新方法神经扩散过程(NDP),该方法学会了从功能上分布中采样。使用新颖的注意力块,我们可以将随机过程(例如交换性)的属性直接融合到NDP的体系结构中。我们从经验上表明,NDP能够捕获与高斯过程的真正贝叶斯后部接近的功能分布。这可以实现各种下游任务,包括高参数边缘化和贝叶斯优化。
translated by 谷歌翻译
内核选择在确定高斯过程(GP)模型中的性能方面发挥着核心作用,因为所选择的内核在之前的GP下确定了电感偏差和在GP下的功能的先前支持。这项工作解决了为高维GP回归模型构建自定义内核功能的挑战。从最近的深度学习进步中汲取灵感,我们介绍了一个名为Kitt的新方法:通过变压器识别内核识别。 KITT利用基于变压器的架构,以在0.1秒内生成内核建议,这比传统的内核搜索算法快几个数量级。我们使用从已知内核的词汇表中从前线生成的合成数据训练我们的模型。通过利用自我关注机制的性质,KITT能够处理具有任意尺寸的输入的数据集。我们证明,KITT选择的内核会在各种回归基准集合中产生强烈的表现。
translated by 谷歌翻译
高斯工艺(GPS)模型是具有由内核功能控制的电感偏差的功能丰富的分布。通过使用边际似然作为目标优化内核超参数来实现学习。这种称为II类型最大似然(ML-II)的经典方法产生了高参数的点估计,并继续成为培训GPS的默认方法。然而,这种方法在低估预测不确定性并且易于在有许多近似数目时易于过度拟合。此外,基于梯度的优化使ML-II点估计高度易受局部最小值的存在。这项工作提出了一种替代的学习过程,其中核心函数的超参数使用嵌套采样(NS)被边缘化,这是一种非常适合于复杂的多模态分布来采样的技术。我们专注于具有频谱混合物(SM)粒子的回归任务,并发现定量模型不确定性的原则方法导致在一系列合成和基准数据集中的预测性能中的大量收益。在这种情况下,还发现嵌套的抽样在汉密尔顿蒙特卡罗(HMC)上提供了速度优势,广泛认为是基于MCMC推断的金标准。
translated by 谷歌翻译
We present a new convolution layer for deep learning architectures which we call QuadConv -- an approximation to continuous convolution via quadrature. Our operator is developed explicitly for use on unstructured data, and accomplishes this by learning a continuous kernel that can be sampled at arbitrary locations. In the setting of neural compression, we show that a QuadConv-based autoencoder, resulting in a Quadrature Convolutional Neural Network (QCNN), can match the performance of standard discrete convolutions on structured uniform data, as in CNNs, and maintain this accuracy on unstructured data.
translated by 谷歌翻译
While there have been a number of remarkable breakthroughs in machine learning (ML), much of the focus has been placed on model development. However, to truly realize the potential of machine learning in real-world settings, additional aspects must be considered across the ML pipeline. Data-centric AI is emerging as a unifying paradigm that could enable such reliable end-to-end pipelines. However, this remains a nascent area with no standardized framework to guide practitioners to the necessary data-centric considerations or to communicate the design of data-centric driven ML systems. To address this gap, we propose DC-Check, an actionable checklist-style framework to elicit data-centric considerations at different stages of the ML pipeline: Data, Training, Testing, and Deployment. This data-centric lens on development aims to promote thoughtfulness and transparency prior to system development. Additionally, we highlight specific data-centric AI challenges and research opportunities. DC-Check is aimed at both practitioners and researchers to guide day-to-day development. As such, to easily engage with and use DC-Check and associated resources, we provide a DC-Check companion website (https://www.vanderschaar-lab.com/dc-check/). The website will also serve as an updated resource as methods and tooling evolve over time.
translated by 谷歌翻译
从有限的资源中获得最大收益可以进步自然语言处理(NLP)研究和实践,同时保守资源。这些资源可能是数据,时间,存储或能源。NLP的最新工作从缩放率产生了有趣的结果。但是,仅使用比例来改善结果意味着资源消耗也会扩展。这种关系激发了对有效方法的研究,这些方法需要更少的资源才能获得相似的结果。这项调查涉及NLP效率的方法和发现,旨在指导该领域的新研究人员并激发新方法的发展。
translated by 谷歌翻译
蒙特卡洛树搜索(MCTS)是一种搜索最佳决策的最佳先入点方法。 MCT的成功在很大程度上取决于树木的建造方式,并且选择过程在其中起着基本作用。被证明是可靠的一种特殊选择机制是基于树木(UCT)的上限置信度范围。 UCT试图通过考虑存储在MCT的统计树中的值来平衡探索和剥削。但是,对MCTS UCT的一些调整对于这是必要的。在这项工作中,我们使用进化算法(EAS)以替代UCT公式并在MCT中使用进化的表达式来进化数学表达式。更具体地说,我们通过在MCTS方法(SIEA-MCT)中提出的语义启发的进化算法来发展表达式。这是受遗传编程(GP)语义的启发,其中使用健身案例被视为在GP中采用的要求。健身病例通常用于确定个体的适应性,可用于计算个体的语义相似性(或差异)。但是,MCT中没有健身案例。我们通过使用MCT的多个奖励值来扩展此概念,从而使我们能够确定个人及其语义的适应性。通过这样做,我们展示了SIEA-MCT如何能够成功地发展数学表达式,而数学表达式与UCT相比,无需调整这些演变的表达式而产生更好或竞争的结果。我们比较了提出的SIEA-MCT与MCTS算法,MCTS快速动作值估计算法的性能, *-minimax家族的三种变体,一个随机控制器和另外两种EA方法。我们始终展示SIEA-MCT在挑战性的Carcassonne游戏中如何优于大多数这些智能控制者。
translated by 谷歌翻译
对社交媒体上的COVID-19疫苗接种的公众讨论不仅对于解决当前的Covid-19-19大流行,而且对于未来的病原体爆发而言至关重要。我们检查了一个Twitter数据集,其中包含7500万英文推文,讨论2020年3月至2021年3月的Covid-19疫苗接种。我们使用自然语言处理(NLP)技术培训了一种立场检测算法,以将推文分为“反Vax”或“ pro-Vax”或“ Pro-Vax” ',并使用主题建模技术检查话语的主要主题。虽然Pro-Vax推文(3700万)远远超过反VAX推文(1000万),但两种姿态的大多数推文(63%的反VAX和53%的Pro-Vax推文)都来自双稳定的用户,他们都发布了两者在观察期间,亲和反VAX推文。 Pro-Vax推文主要集中在疫苗开发上,而反VAX推文则涵盖了广泛的主题,其中一些主题包括真正的问题,尽管存在很大的虚假性。尽管从相反的角度讨论了这两个立场,但两种立场都是常见的。模因和笑话是最转推消息之一。尽管对反vax话语的两极分化和在线流行的担忧是毫无根据的,但针对虚假的有针对性的反驳很重要。
translated by 谷歌翻译
大型预估计模型(例如GPT-3)取得了显着的性能,在训练过程中暴露于大量数据上。类似地,将如此大型模型提炼成紧凑的模型以进行有效的部署,也需要大量(标记或未标记的)培训数据。在本文中,我们提出了培训高质量紧凑型模型的教师指导培训(TGT)框架,该模型利用了预验证的生成模型获得的知识,同时避免了大量数据的需求。 TGT利用了教师获得基础数据域的良好表示的事实,该事实通常对应于比输入空间要低得多的尺寸歧管。此外,我们可以使用老师通过采样或基于梯度的方法来更有效地探索输入空间。因此,使TGT对于有限的数据或长尾设置特别有吸引力。我们正式在我们的概括范围内正式捕获了所提出的数据域探索的好处。我们发现TGT可以提高几个图像分类基准以及一系列文本分类和检索任务的准确性。
translated by 谷歌翻译
医学图像中的自动对象识别可以促进医学诊断和治疗。在本文中,我们自动对超声图像中的锁骨神经进行了分割,以帮助注入周围神经块。神经块通常用于手术后的疼痛治疗,其中使用超声指导在靶神经旁边注入局部麻醉药。这种治疗可以阻止疼痛信号向大脑的传播,这可以帮助提高手术中的恢复速率,并显着减少术后阿片类药物的需求。但是,超声引导的区域麻醉(UGRA)要求麻醉师在视觉上识别超声图像中的实际神经位置。鉴于超声图像中神经的无视觉效果以及它们与许多相邻组织的视觉相似性,这是一项复杂的任务。在这项研究中,我们使用了自动神经检测系统进行UGRA神经阻滞治疗。该系统可以使用深度学习技术识别神经在超声图像中的位置。我们开发了一个模型来捕获神经的特征,通过训练两个具有跳过连接的深神经网络:两种扩展的U-NET体系结构,有或没有扩张的卷积。该溶液可能会导致区域麻醉中靶向神经的封锁。
translated by 谷歌翻译